Evolusi Agen GUI Otonom
Apa itu Agen GUI?
Agen GUI Otonom adalah sistem yang menghubungkan kesenjangan antara Model Bahasa Besar dan Antarmuka Pengguna Grafis (GUI), memungkinkan kecerdasan buatan berinteraksi dengan perangkat lunak seperti halnya pengguna manusia.
Secara historis, interaksi AI terbatas pada Chatbot, yang fokus pada pembuatan informasi atau kode berbasis teks tetapi kurang memiliki interaksi lingkungan. Hari ini, kita sedang beralih ke Action-botโagen yang memahami data layar visual untuk mengeksekusi klik, geser, dan entri teks melalui alat seperti ADB (Android Debug Bridge) atau PyAutoGUI.
Bagaimana cara kerjanya? Arsitektur Tiga Bagian
Action-bot modern (seperti Mobile-Agent-v2) bergantung pada siklus kognitif tiga bagian:
- Perencanaan: Menilai sejarah tugas dan melacak kemajuan saat ini menuju tujuan utama.
- Keputusan: Merumuskan langkah selanjutnya secara spesifik (misalnya, "Klik ikon keranjang") berdasarkan status antarmuka saat ini.
- Refleksi: Memantau layar setelah sebuah tindakan untuk mendeteksi kesalahan dan melakukan koreksi diri jika tindakan gagal.
Mengapa Pembelajaran Penguatan? (Statis vs. Dinamis)
Meskipun Fine-Tuning Terawasi (SFT) bekerja baik untuk tugas yang dapat diprediksi dan statis, sering kali gagal di "Dunia Nyata." Lingkungan dunia nyata menampilkan pembaruan perangkat lunak tak terduga, perubahan tata letak UI, dan iklan muncul tiba-tiba. Pembelajaran Penguatan (RL) sangat penting bagi agen agar dapat beradaptasi secara dinamis, memungkinkan mereka belajar kebijakan umum ($\pi$) yang memaksimalkan hadiah jangka panjang ($R$) daripada sekadar menghafal lokasi piksel.
1. Planning: To break down "buy a coffee" into steps (search, select, checkout).
2. Decision: To map the current step to a specific UI interaction (e.g., click the search bar).
3. Reflection: To verify if the click worked or if an error occurred.
SFT often causes the model to memorize specific pixel locations or static DOM structures. If a button moves during an app update, the agent will likely click the wrong area. Reinforcement Learning (RL) is needed to help the agent generalize and search for the semantic meaning of the button regardless of its exact placement.